#ложные награды28.05.2025
Удивительный рост математического мышления в Qwen2.5-Math при обучении на неверных и случайных наградах
Модели Qwen2.5-Math значительно улучшают математическое мышление даже при обучении с неправильными или случайными наградами, что выявляет уникальные особенности усиленного обучения.